今天在公司的論壇里發現一個同學問了個問題,我把給TA的回答也發在公眾號里,希望你也能看看。也非常歡迎你能對我的回答提出不同意見和建議,歡迎交流。
Q: 作為數據分析師,目前剛剛學完SQL,接下來是應該把空余時間的重點精力放在數學上還是業務上?
我的回答:
數據分析學的不是工具。其實數據分析最先開始要學的是分析和解決問題的思路,學會拆解問題的方法,找到問題的根源,知道使用什么工具或者算法能更好地解決問題,然后再去匹配知識儲備、技能、工具?,F用現學往往是最直接最有效最能沉淀和記憶的學習方法。
如果從數據分析流程上來看:
第一步拆解問題:業務流程法、決策樹法、公式法等等。另外數據的描述性統計也能幫你更快發現問題,找到問題根源。其中一些戰略方法也能幫你梳理分析思路,比如PEST,SWOT,波特五力,BCG矩陣等等。特別是矩陣的變通應用能特別好解決很多業務問題,提問的同學有興趣可以跟我討論我給你一些案例。
第二步收集數據:數據分為內外部數據,內部數據就是公司內部產生的數據,業務監控指標,埋點或者游戲內的用戶聊天記錄等等。外部數據就是比如市場調研、競品等的數據。這里面要學習的就是對業務的理解,比如至少知道AARRR里各階段都用什么指標可以做量化衡量。另外做用戶調研的時候也會應用到如何合理設計問卷,以及問卷可信度分析,比如AHP(行政部門做供應商比選也可以用AHP)。
第三步數據的清洗和整理:數據收集后還要做清洗和整理,比如查找缺失值、異常值,做數據的歸一化、標準化,標簽編碼,one-hot編碼等等,這些如果能掌握一些工具會很方便,推薦學Python數據分析相關課程或書籍,不要跑偏去學python編程了。另外推薦用VS code的同學使用Data Wrangler插件。
第四步,就是應用工具和算法了,統計學(相關性分析、方差分析、卡方獨立性檢驗、各種假設檢驗、各種分布、時間序列、季節分解)、監督學習(回歸,分類器)、非監督學習(聚類、關聯規則、對應分析、協同過濾)、深度學習(神經網絡、LSTM)、強化學習(智能體)、NLP等等。(但是我覺得作為數據分析師而言,深度和強化先不著急學)算法都是需要Features的,那怎么設計和獲取Features,就需要對業務清晰,你要知道游戲里的各種埋點的數值對應的現象和影響是什么,對用戶的行為有了解,并能對應到相關的量化指標。技術上來說也可以學習下特征工程方面的東西。
第五步,就是決策建議,也就是要落地。數據分析師產出的不是漂亮的報表和Dashboard,而是分析問題的原因和解決方案或者決策支持,以及后續怎么跟蹤和驗證結果的方法,怎么確定解決方案和建議是有效的。如果沒有效果還要從前面幾個步驟再來甚至從頭再來。這里面就有涉及了試驗設計,如A/B Test和T檢驗、方差分析等等。
貫穿整個流程里還需要對數據的展示及BI層面有一些了解和清楚怎么能監控和向需求方展示清楚。在整個流程里也會涉及到如何用類似ChatGPT這類工具輔助你的工作。
希望我這個回答能幫提問的同學梳理一下思路。有興趣歡迎一起學習和探討。
來源:炳叔讀數據
加入CPDA,全面提升數據分析能力!